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摘 要 : 近年 来 开源 软件 频频 爆 出 高 危 漏 洞 ， 对 企业 信息 系统 安全 造成 巨大 威胁 。 针 对 开源 软件 漏洞 ， 提 出 一 种 基 
0 该 方法 利用 代码 图 模型 构造 开源 软件 代码 属性 图 ， 遍 历 得 到 sd 
点 并 提取 出 应 用 程序 编程 接口 (API) 序列 ， 并 将 其 说 入 向 量 空 间 ， 以 关键 代码 为 中 心 进行 聚 类 ， 根 据 聚 类 结 
计算 每 个 本 数 的 异常 信 ， 生成 检测 报告 并 匹配 漏洞 库 ， 从 而 检测 出 源 代码 中 的 漏洞 。 实 验 结果 表明 ， 该 方法 角 0 

位 开源 软件 中 漏洞 所 在 的 关键 代码 段 并 检测 tends, 
关键 词 : 开源 软件 ; 漏洞 检测 ; 源 代码 分 析 ; 深度 学 习 ; 聚 类 
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Open source software vulnerability detection method based on deep clustering 


Li Yuancheng!, Huang Rong!, Lai Fenggang’, Mao Yifan2, Cai Lijun3 
(1. School of Control & Computer Engineering, North China Electric Power University, Beijing 102206, China; 2. State 
Grid Information & Telecommunication Branch, Beijing 100761, China; 3. State Grid Fujian Information & 
Telecommunication Branch, Fuzhou 350003, China) 


Abstract: In recent years, open source software has frequently exposed high-risk vulnerabilities, posing a huge threat to the 
security of enterprise information system. Aiming at the open source software vulnerability, this paper proposed a software 
source code vulnerability detection method based on deep clustering algorithm. This method uses code graph model to 
construct the code attribute map and traverses the key code nodes to extract the application programming interfaces (API) 
sequence, then takes the key sequence as the center to cluster and calculates the outliers of the function in each clustering to 
generate a test report, matches the vulnerability library to detect vulnerabilities in the source code. The experimental results 
show that the proposed method can locate the key code segments of the vulnerability in open source software and detect the 
vulnerability. 

Key words: open source software; vulnerability detection; source code analysis; deep learning; clustering 


0 ”引言 局 洞 是 软件 安全 的 重点 研究 课题 741, 随 着 机 器 学 习 的 不 
S 断 发 展 ， 利 用 机 器 学 习 算 法 来 挖掘 分 析 软 件 漏洞 受到 关注 ， 
随 着 互联 网 和 大 数据 技术 的 高 速 发 展 、 社 会 信息 化 程度 通过 代码 度量 56594， 图 模型 5 等 方法 ， 提 取代 码 特 征 ， 采 用 
不 断 提高 ， 开 源 软件 由 于 具有 开放 、 共 享 、 商 用 免费 、 功 能 支持 向 量 机 (SVM)、 随 机 森林 (RF )、 邻 近 等 算法 识别 开源 
灵活 等 特点 ， 不 断 融 入 到 各 行 各 业 的 信息 化 建设 中 。 开 源 软 软件 漏洞 。 此 外 ，Shar 等 人 处 基于 数据 流 分 析 提取 静态 代码 
件 是 指 允 许 用 户 基 于 OSI 列 出 的 开源 协议 ,在 协议 许可 的 范 必 性 作为 机 器 学 习 特 征 来 识别 开源 软件 中 的 漏洞 。 
围 内 自由 使 用 、 修 改 软件 源 代 码 , 且 可 以 将 开源 代码 与 其 他 软 Scandariato、Pang 等 人 0040 引 入 自然 文法 语言 挖掘 技术 ， 如 
件 代 码 进行 结合 使 用 的 一 种 软件 形式 。 开 源 软件 的 存在 提高 词 袋 (bag-of-word) 技术 ，N-gram 语言 模型 等 ， 提 取代 码 特 
了 软件 的 开放 性 和 行业 的 开发 水 平 ， 促 进 了 标准 化 和 软件 开 征 ， 并 使 用 分 类 模型 来 识别 软件 中 的 漏洞 。 
发 的 良性 循环 。 由 于 开源 软件 的 优势 ， 企 业 在 自身 信息 化 建 采用 机 器 学 习 检测 漏洞 ， 需 要 进行 有 效 的 建 模 ， 同 时 特 
设 中 ， 不 断 扩 大 对 开源 软件 的 使 用 范围 ， 以 节约 开发 成 本 ， 征 要 包 插 语法、 控制 流 、 数 据 流 等 信息 。 然 而 ， 传 统 度量 标 
提高 企业 效益 。 目 前 ， 开 源 软件 在 系统 框架 ， 日 志 ， 数 据 存 准 不 适用 于 软件 漏洞 识别 ， 需 要 定义 特定 的 度量 标准 。 由 于 
储 、 处 理 以 及 传输 等 信息 系统 重要 组 成 部 分 得 到 不 同 程度 的 F 源 软件 漏洞 通常 来 源 于 软件 本 身 的 设计 缺陷 、 编 程 时 编写 
使 用 。 虽 然 开 源 软 te 提高 ， 但 是 开 着 误 、 交 互 处 理 中 的 缺陷 以 及 逻辑 缺陷 ， 并 与 特定 的 API 序 
源 软件 的 安全 问题 仍然 普遍 存在 ， 导 致 企业 面临 大 量 的 安全 列 有 联系 ， 因 此 可 通过 源 代码 中 关键 代码 片段 的 API 序列 来 
隐患 和 风险 。 据 报导 ， 来 自 开源 组 件 和 源码 的 安全 威胁 呈现 仿 查 开源 软件 漏洞 。 ee te in 尺码 的 
可 级 数 增长 , 频频 爆 出 高 危 漏 洞 , 例如 Strusts2、open SSL 属性 图 ， 提 取出 关键 代码 段 的 API 序列 ， 采 用 深度 聚 类 算法 
等 。 因 此 ， 为 了 保证 企业 信息 系统 的 安全 可 靠 ， 需 要 对 开源 分 02 析 量化 后 的 API 序列 , 计 WE 出 开源 软 
软件 进行 安全 检测 。 件 中 漏洞 。 
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李 元 诚 ， 等 : 基于 深度 聚 类 的 开源 软件 漏洞 检测 方法 


1 ”开源 软件 源 代码 特征 提取 


1.1 
源 代码 


源 代码 属性 图 


图 模型 是 程序 编译 过 程 中 形成 的 中 间 表 示 ， 包 括 


象 语法 树 ， 
了 程序 的 谋 
序 ， 程 序 依 
图 模型 生成 
但 编程 语言 中 
的 程序 ， 使 


控制 流程 图 ， 程 序 依赖 图 等 。 抽 象 语法 树 展示 
套 结构 ， 控 制 流 程 图 表明 了 程序 中 语句 的 执行 顺 
赖 图 显示 了 数据 流 和 控制 流 的 走向 。 传 统 的 代码 
方法 需要 搭建 一 定 的 编译 环境 ， 并 找到 适合 该 代 
的 编译 工具 以 及 所 有 的 头 文件 。 对 于 复杂 、 陈 | 
用 该 方法 生成 代码 图 模型 的 过 程 十 分 复杂 ， 并 且 


可 能 会 出 现 头 文件 缺失 等 问题 。 因 此 ， 本 文 利用 了 


源 工 


Joern03 从 源 代码 中 抽取 出 抽象 语法 树 , 控制 流程 图 以 及 程序 


依赖 图 ， 并 组 合成 生成 代码 属性 图 。 
Grammar， 并 基于 分 析 器 生成 工具 
Island Grammar 是 一 种 描述 底层 语言 的 语法 ， 可 以 在 不 检查 


Joern 是 一 个 利用 Island 


NTLR 构建 的 分 析 器 。 


文本 语法 的 情况 下 进行 语言 分 析 。ANTLR 是 一 个 可 以 根据 
人 二 、\ 五 \ 填 > -五 
输入 自动 化 生成 语法 树 并 可 视 化 展示 的 开源 语法 分 析 器 。 
id:24 
code:ENTRY 
A type:CFGEntryNode 
functionld:2 void vulfunc(char * str) 
isCFGNode:True { 
1 char scr[10]; 
ha strepy(srce,str); 
isCFGNode:True } 
B childNum:0 
location:3:12:49:57 
id:5 
type:CFGEntryNode 
functionId:2 NS code:char src[10] 
isCFGNode:True 
str childNum:0 C 
location:5:1:63:75 
id:19 
code:strcpy(Src,str) AAA type:IdentifierDecIStatement 
isCFGNode:True Si functionId:2 
childNum:1 


location:6:1:78:93 


id:10 


type:ExpressionStatement 
functionId:2 


l 


id:24 
code:EXIT 
type:CFGEntryNode Ee 
functionId:2 
isCFGNode:True 
图 1 示例 代码 属性 图 
Fig.1 Attribute map of sample code 


在 形式 


上 FE， 代码 属性 图 是 一 个 带 有 边缘 标记 的 归属 多 图 


[01， 可 以 在 
对 装 入 程序 
该 函数 的 所 
点 类 型 ， 代 
先后 顺序 、 

是 数据 流 走 
E 节点 为 出 


1.2 _ API 序列 提取 
API 序列 


量 声明 中 所 
中 数据 流 和 


观察 得 到 ， 


到 ] 为 例 ， 


以 该 节点 为 根 ， 提 取出 子 树 节 点 构成 API 
点 在 抽象 语法 树 中 的 子 树 如 图 2 所 示 。 


code:strcpy(Src,str) 
isCFGNode:True 
childNum:1 
location:6:1:78:93 
type:ExpressionStatement 
functionId:2 


childNum:0 
code:strcpy(Src,str) 
type:CallExpression 
functionId:2 


childNum:0 
code:strcpy 
type:Callee 
functionId:2 


type: Arg 


type:Argument 
functionId:2 


childNum:0 
code:strcpy 
type:Identifier 
functionId:2 


childNum:0 
code:sre 
type:Identifier 
functionId:2 


childNum:1 
code:src 


functionId:2 
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序列 。 图 1 中 DD 市 


umentList 


childNum:1 
code:str 

type:Argument 

functionId:2 


childNum:0 
Code:str 

type:Identifier 

functionId:2 


2 包含 节点 D 的 抽象 语法 树 子 树 


Fig.2 Abstract syntax tree subtree containing node D 


该 过 程 类 似 程序 切片 ， 从 完整 源 代码 的 属性 图 中 ， 提 取 


出 “ 源 ” 与 “ 
所 生成 的 序列 包含 “ 源 ” 与 “; 
以 及 变量 信息 ， 
条 件 语 句 为 包含 if，for，while 黎 
1.3 量化 API 序列 


通过 上 述 方法 得 到 的 API 序 列 为 一 组 由 表达 式 组 成 的 具 


I 


汇 ” 所 在 的 子 图 的 代码 信息 ， 构 成 API 序列 。 
汇 ” 的 函数 名 称 ， 使 
条 件 语句 以 及 节点 之 间 的 依赖 关系 。 其 中 ， 
等 关键 字 的 条 件 表达 式 。 


的 参数 


有 抽象 意义 的 值 ， 无 法 直接 作为 机 器 学 习 的 输入 。 因 此 ， 需 


要 将 序列 嵌入 向 量 空间 ， 得 到 


与 之 对 应 的 数值 向 量 ， 


即 样本 


特征 。 由 于 不 同 开发 者 的 代码 书写 习惯 不 同 , 需要 对 函数 名 ， 


参数 名 以 及 变量 等 信息 进行 归 一 化 处 理 ， 


以 获得 统一 的 


多 式 。 


首先 , 去掉 API 序列 中 的 与 漏洞 信息 无 关 的 非 ASCII 字 


符 ; 然后 ， 将 用 户 定义 的 变量 以 一 对 一 的 方式 映射 到 符号 名 


称 ( 例 如 “ARG1”“ARG2”)， 


名 《例如 


习 值 重新 统一 命 


户 定 义 的 函数 和 参数 也 以 
同样 的 方式 进行 映射 (例如 “FUN1”“PAR1”); 最 后 ， 
“RET1” “RET2”), 
得 到 归 一 化 序列 后 ， 通 过 映射 函数 将 其 
此 处 引入 “bag-of-word” 模 型 ， 借 鉴 文 本 自然 语言 处 理 


将 返 


嵌入 向 量 空 
上 


法 将 序列 量化 。 对 于 


理 
然 语 言 来 说 ， 文 本 是 由 单词 组 成 ， 通 


过 统计 关键 词 出 现 的 频率 即 可 得 到 其 特 生 


图 的 节点 和 边 上 存储 数据 来 标记 节点 之 间 区 


E 同 量 。 而 对 于 API 


序列 来 说 ，API 节点 就 是 关键 词 。 对 每 个 开源 软件 ， 扫 描 程 


< 


的 每 一 个 函数 都 生成 一 个 代码 属性 图 ， 图 中 旬 合 
有 节点 和 关系 。 每 个 节点 包含 的 主要 属性 有 : 节 
码 ， 所 在 位 置 。 每 一 条 边 代表 节点 之 间 的 调用 的 
数据 和 控制 流 的 走向 ， 如 图 1 所 示 。 其 中 红色 线 
句 ， 蓝 色 线 为 控制 流 走 向 。A 节点 为 函数 入 口 ， 
口 ， 中 间 三 个 节点 分 别 为 右 侧 代码 的 每 一 行 


API 节点 构成 ，API 节点 为 在 参数 和 局 部 变 
包含 的 全 部 类 型 及 调用 函数 的 名 称 外 。 将 属性 
控制 流 的 源头 和 汇合 的 节点 命名 为 * 源 ”和 “ 汇 ”。 
“ 源 ” 为 节点 B,，“ 汇 ”为 节点 D。 从 图 模型 中 
节点 “ 源 ” 和 “ 汇 ” 所 在 子 树 中 包含 函数 参数 、 


re 
a 


变量 和 调 
全 操作 所 需 


“> 与 Wy 
小 ne Ls 


j， 及 全 局 和 局 部 变量 冬 


等 信息 息 。 这 些 信息 与 软件 安 
条 件 相 关 。 通 过 遍历 代码 属性 图 ， 标 记 处 图 中 的 
， 并 在 抽象 语法 树 中 找到 标记 函数 所 在 节点 。 


SI 


序 得 到 所 有 函数 集合 X={%.%,… 


, 韦 } ,生成 每 个 源 代码 文件 的 


API 节点 集合 4 ， 并 组 合 
射 函数 可 以 表示 为 


GX) (Ka) waa 
_ 用 ”如 果 x 包含 API 节 点 a 
a 中 ’ 9 其 他 


档 频 率 (TF-IDF)〉 的 参数 ， 


除 党 


3 API 节点 对 于 特征 的 影响 
waa = {fa xlog(N/df,) 


qf 为 节点 a 出 现 的 文件 数 。 
2 ”开源 软件 源 漏洞 检测 模型 
2.1 


AE-KNN 


生成 API 词典 A={4,4,…， 


其 中 : ti 为 API 节点 a 在 A 中 出 现 次 数 和 总 节 


驴 }。 映 


(1) 


waa 为 术语 频率 道 文 


用 以 降低 API 序列 相似 程度 ， 消 
其 表达 式 为 


CO) 
点 数 的 比值 ， 


量化 得 到 的 样本 特征 包含 了 源 代码 缺陷 检测 所 需 信 息 。 
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此 外 ， 本 文 还 采用 具有 邻 域 发 现 的 KNN 算法 来 识别 函数 的 
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个 样本 的 所 占 分 数 ， 用 以 推断 “ 源 ” 与 “ 汇 ” 邻 居 函 数 中 的 


邻 域 ,获得 程序 上 下 文 信息 。 考 虑 到 本 文 样本 特征 维 数 较 高 ， 
为 提高 性 能 ， 引 入 自动 编码 器 (Autoencoder) 来 压缩 样本 特 


六 


征 ， 提 出 一 种 AE-KNN 深度 聚 类 模型 ， 如 图 3 所 示 。 


样本 特征 
750*n 


图 3 AE-KNN 模型 
Fig.3 AE-KNN model 
该 模型 包括 样本 特征 预 处 理 ， 样 本 特征 重 构 以 及 样本 聚 
类 三 个 部 分 。 预 处 理 用 于 除去 噪声 数据 和 重复 数据 ， 并 进行 
数据 交换 使 其 转换 为 适合 于 数据 分 析 的 形式 。 本 文采 用 
Z-score 规范 化 对 样本 特征 进行 预 处 理 ， 假 设 样本 容量 为 n， 
样本 中 第 i 个 特征 的 取 值 为 x={,**…, 加 } ， 规 范 化 公式 为 


站 = 玉 G) 
其 中 :大 和 CT 分 别 为 该 特征 值 的 平均 值 和 标准 


安全 缺失 ， 计 算 其 异常 分 数 。 在 漏洞 库 中 查找 匹配 异常 分 数 
排名 高 的 函数 ， 得 到 源 代码 所 含 漏洞 。 
表 1 代码 问题 及 对 应 关键 函数 


Table 1 Code problems and corresponding key functions 
代码 问题 关键 函数 
insect, create, select, alter, update, exec, order, 
输入 验证 
cookie, subject, system 
strepy, strlen, strcat, strechr, scanf, sprintf, strerror, 
缓冲 区 溢出 。 strcoll，sbumpc,， malloc, recv, memcpy, fget, 
getpass 
APT 小 cin, gets, fgets, getchat, getc, getpass, memcepy, 
i 
malloc, getParameter 
we malloc, calloc, realloc, alloca, free, new, delete, 
内 存 管 理 
memcpy 
根据 AE-KNN 的 聚 类 结果 , 计算 每 个 类 中 的 各 个 函数 的 


异常 值 .假设 每 个 类 的 样本 集合 为 N, 样本 的 向 量 表示 为 
考虑 每 个 类 中 的 “ 源 ” 与 “ 汇 ” 构造 正 态 模型 为 


四 
/= 证 也 6 
Wi (6) 


样本 特征 重 构 部 分 对 预 处 理 后 的 特征 进行 挖掘 ， 学 习 样 
本 特征 的 深层 抽象 关系 ， 并 重 构 得 到 低 维 抽象 特征 。 本 文采 
用 Autoencoder 算法 重 构 样本 特征 。Autoencoder 包括 encode 
和 decode 两 个 过 程 ， 输 入 层 、 输 出 层 及 隐 含 层 三 个 部 分 ， 
encode 用 于 数据 压缩 ，decode 用 于 数据 重 构 。 样 本 特征 重 构 
过 程 表示 为 


y= fo(x) =s(Wx+Db) 

E = 80(y)=s(WY+b') (0) 
其 中 : x 为 输入 样本 特征 ，z 为 重 构 样 本 特征 ， 大 0 为 输入 到 
隐 含 层 的 非 线性 函数 ，y 为 中 间 结 果 ， gz0) 为 隐 含 到 输出 层 
的 非 线 性 函数 。W 和 丈 ' 代表 编码 权重 和 解码 权重 ， 和 ww 分 
别 为 网 络 的 偏 移 和 撩 量 ，s 和 * 为 激活 函数 。 该 算法 重 构 误 差 
小 ， 可 以 认为 经 过 压缩 后 的 低 维特 征 几乎 包含 了 输出 数据 的 
所 有 特征 信息 。 
样本 聚 类 部 分 将 得 到 低 维 特征 以 “ 源 ” 与 “ 汇 ” 所 在 的 
样本 点 为 中 心 进行 聚 类 。 考 虑 到 漏洞 检测 的 重点 在 于 代码 片 
段 的 个 体 差异 ， 因 此 实验 采用 余弦 距离 。 假 设 x 为 待 分 类 样 
本 ,，c 为 其 中 一 类 样本 ，d 为 聚 类 中 心 ， 则 算法 可 以 表示 为 


y(%0)= Dsin(s d) (de) (5) 


其 中 :sim(") 为 x 与 di 的 余弦 距离 。 

KNN 是 一 种 lazy-learning 算法 , 分 类 器 依据 k 个 样本 中 
5 优 类 别 进行 决策 。 这 种 几何 表示 能 够 识别 “ 源 ” 与 “ 汇 ” 
的 k 个 最 近邻 居 。 
2.2 漏洞 检测 
2.2.1 开源 软件 漏洞 库 
开源 软件 漏洞 检测 方法 需要 基于 一 定 的 漏洞 集合 ， 因 此 
需要 构建 开源 软件 漏洞 库 。 参照 包括 CVE 漏洞 数据 库 、 美 国 
国家 漏洞 库 (NVD ) 等 在 内 的 知名 漏洞 库 , 并 结合 自身 方法 ， 
构建 了 开源 软件 漏洞 库 。 目 前 数据 库 收录 了 输入 验证 、 缓 冲 
区 溢出 、 内 存 管理 、API 误 用 等 问题 所 涉及 的 漏洞 ， 表 1 中 
显示 了 部 分 与 以 上 问题 相关 的 关键 函数 。 
2.2.2 异常 值 计算 


AE-KNN 模型 可 通过 几何 的 方式 来 确定 源 代 码 中 的 漏洞 。 


计算 模型 中 样本 的 余弦 距离 用 于 邻近 发 现 ， 可 以 快速 发 现 相 
似 的 API 使 用 模式 ， 为 漏洞 检测 英 定 基础 。 计 算 各 个 类 中 每 


其 中 : 4 为 质心 向 量 ， 向 量 中 每 个 值 为 邻居 分 数 ， 数 值 分 布 
为 [0,1]， 代 表 在 进行 样本 邻近 检查 时 ， 有 百 分 之 # 的 函数 返 
可 了 检查 值 。 得 到 正 态 模 型 后 ,使 用 L-w 范 数 来 计算 出 每 个 
样本 的 异常 分 数 为 


只 他 


7(C)=|w 一 中 。 (7) 
对 所 有 样本 按照 异常 值 进行 排序 ， 排 名 越 高 的 样本 所 指 
向 的 代码 段 含 有 漏洞 的 几率 越 大 。 提 取出 高 排名 样本 对 应 代 
码 片 段 ， 并 在 开源 软件 漏洞 库 中 匹配 ， 最 终 得 到 被 测 软 件 的 
漏洞 。 
2.3 ”开源 软件 漏洞 检测 流程 
根据 前 面 的 描述 ， 本 文 提 出 的 基于 深度 聚 类 的 国家 电网 
开源 软件 漏洞 检测 方法 的 具体 流程 如 下 : 
a) 根 据 开 源 软件 源 代 码 生 成 代码 属性 图 ， 该 代码 属性 图 
包含 源 代码 数据 、 控 制 流 信息 ， 及 代码 撕 套 结构 。 
b) 遍 历代 码 属 性 图 , 寻找 数据 流 与 控制 流 的 “ 源 ” 与 “ 汇 ” 
节点 ， 并 提取 出 以 该 节点 为 跟 的 子 树 的 关键 API 序列 租 入 
量 空间 ， 得 到 特征 向 量 。 
c) 采 用 AE-KNN 模型 对 特征 向 量 进行 聚 类 分 析 ， 对 得 到 
的 每 一 类 计算 出 类 中 每 个 特征 样本 的 异常 值 并 排序 ， 得 到 检 
测报 告 。 
qd) 提取 出 报告 中 异常 值 排序 高 的 样本 函数 , 匹配 漏洞 库 ， 
得 到 函数 中 含有 的 漏洞 ， 如 图 4 所 示 。 


] 
时 | 
开源 软件 源 代 码 | ， | 
*, CPp/*. h ' I 


工 


漏洞 。 [RRR 全 | 
| 于 
漏洞 库 (4 检测 报告 | 
i 


EE 


图 4 基于 深度 聚 类 开源 软件 漏洞 检测 模型 


Fig.4 Open source software vulnerability detection model based on 


deep clustering 
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3 ” 算 例 分 析 
3.1 实验 数据 

统计 国家 电网 公司 自 2017 年 7 月 到 2018 年 4 月 的 公司 
信息 化 项 目 采用 的 开源 软件 ， 结 果 显 示 项 目 共 使 用 开源 软件 
104 个 ， 占 总 数 的 74.23%。 本 文选 择 两 个 使 用 较 多 的 开源 软 
件 作为 实验 样本 : 


2.8.2 以 前 以 及 3.0 


a)Redis。ANSIC 语言 编写 的 日 志 型 .Key-Value 数据 库 。 
.2 之 前 的 3.x 版 本 的 Redis 


于 缺乏 有 效 的 
令 执 行 任 ;i 


认证 ， 人 允许 远程 攻击 者 通过 eval 命 


(CVE-2015-4335 )。 


b)MongoDB 。 
据 库 。 


绝 服务 (CVE-201 


2.4.8 以 前 以 及 2.6.8 之 前 
许 远程 攻击 者 通过 BSON 请 求 中 的 特殊 UTF-8 


意 Lua 字 节 码 


实验 使 用 版 本 为 2.8.20。 
C++ 语言 编写 的 基于 分 布 式 文件 存储 的 数 
的 2.6.x 版 本 的 MongoDB 人 允 
字符 串 导 致 拒 
版 本 为 2.6.7. 


5-1609 )。 


对 于 以 上 两 个 开源 软件 ， 根 据 上 述 方法 构造 其 函数 集合 


X， 通 过 分 析 每 个 


到 函数 的 排名 。 值 得 注意 的 是 ， 由 于 整个 集合 
用 于 邻 域 选择 ， 所 得 到 的 排名 中 存在 具有 漏洞 包 


在 正常 函数 。 


“ 源 ” 与 “ 汇 ”所 在 类 中 的 样本 函数 ， 


此 外 ， 为 J 


验证 不 同 


漏洞 类 型 的 检测 性 能 ， 


=r 
A 
请 


家 标准 与 技术 下 


究 院 官网 提供 的 数据 集 ， 


整理 出 315 段 代 


作为 实验 集 ， 其 中 正常 


验证 40 个 ， 缓 冲 
28 个 )。 


代码 171 个 ， 漏 洞 代 码 144 个 (输入 


= 


43 个 ，API 误 用 33 个 ， 内 存 管 理 


区 溢出 


3.2 实验 及 结果 分 析 


3.2.1 参数 设置 


于 AE-KNN 需要 确定 邻居 数 k 的 取 值 。 计算 不 同 
下 两 个 开源 软件 的 平均 聚 类 效果 ， 


k 值 
生成 ROC 曲线 图 ， 如 


图 5 所 
佳 ; 


示 。 从 图 中 


Tm 


True Positive Rate 


故 在 实验 中 选 定 K 的 
| 


可 以 看 出 当 k 取 25 时 ,获得 的 聚 类 效果 最 
值 为 25。 


1 1 1 
0.4 0.5 0.6 
False Positive Rate 


图 5 不 同 K 值 的 聚 类 效果 


1 
0.3 


Fig.3S Clustering with different k 


3.2.2 实验 结果 分 析 
对 于 Redis， 实 验 发 现 了 518 个 “ 源 ” 与 “ 汇 ”， 


并 对 该 


聚 类 的 开源 软件 漏洞 检测 方 


混淆 。 户 可 


将 其 他 case 语句 


恶意 用 


来 跳 过 语句 中 的 类 


指令 之 后 生成 对 
包 变 量 的 引用 。 


长 型 检查 ， 

在 函数 luaV_execute 中 的 另 一 
存在 对 闭 包 处 理 的 for 循环 语句 。 其 功能 有 具 
应 的 MOVE 指 
正常 情况 下 ， 


间 令 ， 


此 


部 变量 , 但 恶意 


户 可 通过 修改 字 节 


在 函数 luaD oe 中 ， 
了 函数 指针 。 恶 意 用 


指 辐 
地 址 并 履 写 至 
令 执 行 任意 


fputs.got 后 ， 上 
E 意 Lua 字 节 码 。 


将 创建 的 
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的 指令 修改 为 JMP 指令 ， 


体 为 在 


后 


分 


该 ] 指令 也 


码 ,将 其 指向 任 


直接 转 入 OP FORLOOP。 此 外 ， 
个 case 语 句 OP_CLOSURE 中 


CLOSURE 


第 二 个 参数 为 闭 
| 用 只 能 指向 当前 


1 栈 中 的 局 
意 位 置 。 


CC 语音 闭 


包 对 象 CClosure 
户 履 写 CClosur 一 f, 同时 获取 System 


可 利 


该 漏洞 ， 并 通过 eval 命 


旭 6 ”部 分 实验 结果 


Fig.6 Partial experimental results 


表 2 Redis 检测 中 六 个 高 


排名 函数 


Table 2 Six high ranking functions in Redis detection 


异常 值 ”分数 ”所 在 文件 函数 名 行 数 
0.88 0.81 ldo.c luaD_ precall 307 
0.80 0.75 lvm.c luaF findqupvvial 736 
0.80 0.21 lvm.c luaV_equalval 2339 
0.40 0.32 lgc.c luaC _ link 685 
0.27 0.75 lvm.c luaV_execute 377 
0.27 0.48 lvm.c luai numadd 179 


表 3 函数 相关 代码 段 


Table 3 Corresponding code segment of functions 


关键 代码 段 


case OP _ 


FORLOOP: 


lua_Number idx=luai numadd(nvalue(ra), step): 


luaV_execute 


luaD _precall 


case OP 


CLOSURE: 


forQ=0; j<nup; j++,pe+t+){... 
ncl->l.upvals[j]=luaF_findupval(L, base + 
GETARG B(*pc));} 
lua_assert(isLua(L->ci)); pc =L->savadpc; 
cFAclvalue(L->ci-func)->]; 


司 样 对 于 软件 MongoDB 进行 


个 函数 ， 如 表 4 所 示 。 这 些 函 数 
洞 CVE-2015-1609 相关 。 在 
于 原始 输入 originalBuffer 只 做 了 长 度 检查 ， 就 调用 了 
validateBSONIterative0O 来 处 理 输入 数 


检测 ， 
中 除 第 4、5 两 


使 


并 提取 出 
行 外 ， 均 与 
函数 validateBSONO 时 ， 


高 排名 的 


据 , 如 表 5 所 示 。 此 外 ， 


在 validateBSONIterativeO 调 用 的 函数 readUTFString()， 在 读 


入 了 串 的 长 度 后 ， 
行 判断 。! 


518 个 “ 源 ” 与 [oq 


值 ， 余弦 距离 以 及 分 数 
个 结果 中 筛选 出 排名 高 的 6 个 函数 ， 如 表 2 所 示 。 
追溯 这 些 函 数 ， 发 现 除 表 中 第 5 个 函数 儿 


CVE-2015-4335 相 


case 语句 OP FORLOOP 段 中 没有 对 参数 进行 


汇 ” 进 行 邻近 发 现 ， 并 计算 出 函数 的 异常 
打印 出 来 ， 如 图 6 所 示 。 从 这 518 


， 均 与 漏洞 
函数 luay_execute 中 的 


关 ， 如 表 3 所 示 


于 缺少 对 输出 
法 验证 一 些 畸 形 的 


直接 对 变量 out 


BSON 数据 包 ， 


值 的 检查 ， 


进行 了 赋值 ， 


使 得 认 订 


常 导致 服务 宕 机 。 


攻击 者 只 需 获 得 


没有 对 sz 进 
mongodb 的 服务 端 无 
FE 出 现 故 障 触发 异 
数据 库 访 问 权 限 ， 便 可 通 


造成 拒绝 服务 攻击 。 
交叉 验证 测试 该 模型 的 准确 性 ， 
每 次 选择 一 个 子 集 作为 测试 集 ， 


过 编写 特定 的 数据 包 ， 即 特定 正则 表达 式 ， 不 断 发 送 给 数据 
库 ， 导 臻 服务 器 月 满 ， 

对 于 漏洞 数据 集 ， 采 
将 数据 集 划 分 为 5 个 子 集 ， 


其 余 作为 训练 集 ， 


洒 入- 本 xz 
类 型 忌 划 e， 和 下 


义 idx 后 就 直接 调 


用 函数 luai numadd() 进 行 


赋值 。 由 于 默认 


参数 为 lna_Number 类 型 ， 导 致 了 任意 类 型 到 lua Number 的 


作为 评价 标准 


交叉 验证 $ 次 ， 


实验 


结果 取 平 均值 。 选 择 
准确 率 (Accuracy)， 误 报 率 (FPR)， 漏 报 率 〈M 
， 计 算 公 式 为 


iss Rate) 
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Accuracy = ee (8) 4 结束 语 
二 (0) 针对 企业 开源 软件 的 安全 性 问题 ， 本 文 提 出 基于 深度 
FP+TN 类 的 源 代码 漏洞 检测 方法 ， 利 用 代码 图 模型 并 引入 然 文本 
eto (10) 语言 分 析 技 术 米 构造 开源 软件 的 样本 特征 ， 提出 A KNN 模 
TP+FN 型 并 进行 聚 类 分 析 ， 计 算 每 个 样本 的 异常 值 并 排序 ， 得 到 关 
其 中 : TP 为 真实 结果 为 正常 样本 ， 检 测 为 正常 样本 ; FN 为 ”” 键 代码 段 并 通过 匹配 漏洞 库 检 测 出 代码 段 中 的 漏洞 。 该 检测 
真实 结果 为 正常 样本 , 检测 为 漏洞 样本 ; FP 为 真实 结果 为 漏 。 模型 的 局 限 性 在 于 高 排名 的 函数 中 ， 可 能 存在 正常 函数 。 在 
洞 样本 ， 检 测 为 正常 样本 ，TN 为 真实 结果 为 漏洞 样本 ， 检 ”未 来 的 研究 中 ， 将 着 眼 于 提高 模型 的 精确 度 ， 实 现 完全 自动 
测 为 漏洞 样本 。 化 地 检测 国家 电网 开源 软件 源 代码 中 的 漏洞 ， 包 括 已 知 漏洞 
表 4 MongoDB 检测 中 六 个 高 排名 函数 和 有 零 日 漏洞 ， 同 时 扩展 到 其 他 语言 编写 的 开源 软件 。 
Table 4 Six high ranking functions in mongodb detection 参 考 文 献 . 
异常 值 分 数 所 在 文件 函数 名 
Us 0 On Val ale pp alone ON [1] 蔡 军 , 邹 胸 , 杨 尚 飞 . 软件 漏洞 分 析 中 的 脆弱 点 定位 方法 [J]， 国防 
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